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Process for adaptation of a hidden Markov sound model in a speech 
recognition system. This invention concerns a process for adapting a 
generally available code book (CB) for special applications with a speech 
recognition system of the hidden Markov sound model These applications 
are defined by a lexicon (LEX) changed by the user. The adaption (ADAP) 
is done during operation and occurs by means of a displacement of the stored 
midpoint vector of the probability density distributions of hidden Markov 
models, in the direction of a known feature vector of sound expressions and 
in relationship to the hidden Markov models specially used. In comparison 
to current practices, the invention has the advantage that it is done on- 
line and that it has a very high recognition rate with little computational 
expenditure. In addition, the training expenditure for special sound models 
for corresponding applications is avoided. By using special hidden Markov 
models from multilingual phonemes, in which sound similarities across various languages are used, automatic adaptation to foreign languages 
can follow. Both language-specific and language-dependent characteristics are taken into account in this method for acoustic phonetic 
modelling to determine the probability densities for different hidden Markov sound models in different languages. 
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(57) Zusammenfassung 

Mit der Erfi railing wird ein allgemein mit einem Spracherkennungssystem zur VcrfDgung gestelltes Codebuch (CB) von hidden- 
Markov-Lautmodellen fur spezielle Anwendungsfallc adaptiert Diese Anwendungsfelle werden dabet durch ein vom Anwender verandertes 
Lex ikon (LEX) der Applikation definiert Die Adaption (ADAP) erfolgt wfihrend des Betriebs und geschieht durch eine Verschiebung des 
gespeicherten Mittetpunktsvektors der Wahrscrieinlichkeitsdichteverteilungen von hidden-Markov-Modellen, in Richtung eines erkannten 
Merkmalsvektors von LautauBerungen und in Bezug auf die speziell verwendeten hi dden-Markov -Model le. GegenOber gangigen Verfahren 
hat die Erfindung den VorteiU daB sie On-Line erfolgt und dafl sie eine sehr hone Erkennungsrate bei einem geringen Rechenaufwand 
gew&hrieistet. Weiterhin wird der Aufwand fflr das Training von speziellen Lautmodellen fur entsprechende Einsatzfalle vermieden. Durch 
Anwendung spezieller hidden-Markov-Modelle aus multilingualen Phonemen, bei denen die Ahnlichkeiten von Lauten Ober verschiedene 
Sprachen hinweg ausgenutzt wird, kann eine automatische Adaption an Fremdsprachen erfolgen. Bei der dabei verwendeten Methode zur 
akustisch phonetischen Model lierung werden sowohl sprachspezifische als auch sprachunabhangige Eigenschaften bei der Zusammenfassung 
der Wahrscheinlichkeitsdichten fur unterschiedliche htdden-Markov-Lautmodelle in verschiedenen Sprachen berGcksichtigt. 



LEDIGLJCH ZUR INFORMATION 



Codes zur Idcotifizicning von PCT-Vcrtragsstaaten auf den Kopfbogcn dcr Schriften, die Internationale Anmeldungen gemSss dem 
PCT vcrOffentlichcn. 



AL 


Atbsnjen 


ES 


Spsnien 


LS 


Lesotho 


SI 


Sloweaien 


AM 


Anncnien 


n 


Fmnland 


LT 


Litaueo 


SK 


SLow&ket 


AT 


Osterreich 


ER 


Frankreich 


LU 


Luxemburg 


SN 


Senegal 


AU 


Australia) 


GA 


Gabon 


LV 


Lertland 


sz 


Swasibmd 


AZ 


Asertnidschan 


GB 


Verciaigtes Kdftigrefch 


MC 


Monaco 


TD 


Tschad 


BA 


Bosnicn-Herzegowma 


GE 


Gcorgien 


MD 


Republik MoMm 


TC 


Togo 


BB 


Barbados 


GH 


Ghana 


MG 


Madagaskar 


TJ 


Tadschiktstan 


BE 


Belgien 


GN 


Guinea 


MK 


Die ehemaHge jugosbwtsche 


TM 


Turkmenistan 


BF 


Burkina Paso 


GR 


Griechentand 




Republik Mazedonien 


TR 


Turkei 


BG 


Bulgariec 


HU 


Ungam 


ML 


Mali 


TT 
UA 


Trinidad und Tobago 


BJ 


Benin 


IB 


bisnd 


MN 


Mongolei 


Ukraine 


BR 


Brasilien 


IL 


Israel 


MR 


Mauretanicn 


UG 


Uganda 


BY 


Belarus 


IS 


Island 


MW 


Malawi 


US 


Vereinigte Staaten von 


CA 


Kanada 


IT 


It*] ten 


MX 


Mexiko 




Amerika 


CF 


ZcnmlifrikaDUche Republik 


JP 


Japan 


NB 


Niger 


UZ 


Usbekistan 


CG 


Kongo 


KB 


Kenia 


NL 


Niedcrbnde 


VN 


Vietnam 


CH 


Schwetz 


KG 


KirgUtstaa 


NO 


Norwegen 


YU 


Jugoslawien 


a 


C6tc d'lvotrc 


KP 


DetnoknrJscbc VoUoiepuWik 


NZ 


Neuscetand 


zw 


Zimbabwe 


CM 


Karoenin 




Korea 


PL 


Poien 






CN 


China 


KR 


Republik Korea 


FT 


Portugal 






CU 


Kuba 


KZ 


Kasachstan 


RO 


Rujnlnien 

Russische Kfldcnlioa 






cz 


TichechBche Republik 


LC 


St. Lucia 


RU 






DE 


DenuchUsd 


U 


Liechtenstein 


SB 


Sudan 






DK 
EE 


Dtnemark 


LK 


Sri Lanka 


SE 


Schweden 






Estiand 


LR 


Libera 


SG 


Shigapor 







WO 98/11534 



PCI7DE97/02016 



1 

Bes chreibung 

Verfahren zur Anpassung eines hidden-Markov-Lautmodelles in 
einem Spracherkennungssystem 

5 

Die Erfindung bezieht sich auf ein Verfahren zur Anpassung 
von hidden-Markov- Lautmodellen an Betriebserf ordernisse eines 
Spracherkennungs systems, insbesondere unter Verwendung spezi- 
ell gebildeter Mehrsprachen hidden -Markov- Lautmodelle, die an 
10 eine Einsatzsprache angepafit werden. 

Ein Spracherkennungssystem greif t im wesentlichen auf zwei 
unabhangige Wissensquellen zu. Zutn einen ist dies ein phone- 
tisches Lexikon, mit dem das zu erkennende Vokabular als 
15 Wortschatz festgelegt wird. Dort werden beispielsweise die 

ASCII-Strings der einzelnen zu erkennenden Worte, sowie deren 
phonetische Umschrift gespeichert. Ebenso wird durch dieses 
Lexikon eine sogenannte "Task" vorgegeben. 

Zum anderen ist dies ein Codebuch, das die Parameter der Hid- 
20 den-Markov- Lautmodelle (HMM) und damit insbesondere die Mit- 
telpunkte der zu Erkennungs segment en gehorigen Wahrschein- 
lichkeitsdichteverteilungen enth&lt . 

Die beste Leistung eines Spracherkennungssystems ist zu beob- 
25 achten, wenn das HMM-Codebuch optimal auf das Lexikon abge- 
stimmt ist. Dies ist der Fall, wenn das HMM-Codebuch zusammen 
mit demjenigen Lexikon betrieben wird, mit dem dieses HMM- 
Codebuch auch eingangs durch Training erstellt wurde. Kann 
dies nicht gewahrleistet werden, so ist ein Leistungseinbruch 
30 feststellbar. 

Bei Spracherkennungssystemen, wie sie beispielsweise in Ver- 
mittlungssystemen eingesetzt werden, tritt h^ufig das Problem 
auf, da£ der eingauigs trainierte Wortschatz, mit welchem die- 
35 ses System ausgeliefert wird im Betrieb durch den Kunden ab- 
geandert wird. Dies hat in der Regel zur Folge, dafi nun bei 
den neuen W6rtern des Lexikons Koartikulationen zwischen Pho- 
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nemen auftreten, die vorher nicht t rainier t werden konnten. 
Es besteht nun also ein "Mismatch" zwischen Lexikon und HMM- 
Codebuch, was zu einer verschlechterten Erkennungsleistung itn 
praktischen Betrieb filhrt. 

Ein praktisches Beispiel fur eine solche Situation ware ein 
telef onisches Vermittlungssystem einer Firma, das die Namen 
der Mitarbeiter versteht und den Verbindungswunsch eines An- 
rufers durch dessen Spracheingabe automatisch erkennt und den 
Anruf an die entsprechende Nebenstelle weiterleitet (Call -by - 
Name) . Im Lexikon sind also die Namen der Mitarbeiter gespei- 
chert. Durch Fluktuation werden sich die Namen immer wieder 
Sndern und das System wird somit aus den genannten Grunden 
eine unbef riedigende Erkennungsleistung vorweisen. 

Urn eine mdglichst hohe Erkennungsleistung eines Spracherken- 
nungssystems unter den geschilderten Einsatzbedingungen zu 
gew^hrleisten, ist es also erf orderlich, eine Anpassung 
(Adaption) des zugrundeliegenden HMM-Codebuchs dieses Erken- 
nungssystems an die neu gegebene Task, die durch das veran- 
derte Lexikon gegeben wurde, durchzufAhren. Aus dem Stand der 
Technik sind unterschiedliche Verfahren zur Losung dieses 
Problems bekannt. Aus [l] ist eine L6sung bekannt, bei der 
vorgeschlagen wird, ein Nachtraining zur Anpassung des Code- 
buchs an das Lexikon durchzuf uhren . Diese Vorgehensweise hat 
den Nachteil, daS im allgemeinen das Vokabular der Endanwen- 
dung zum Trainingszeitpunkt nur teilweise bekannt ist. Falls 
nun zu einem spateren Zeitpunkt das Nachtraining gestartet 
werden nru£, so mussen alle potentiell benotigten akustischen 
Modelle eines neuen Vokabulars bereitgehalten werden, was un- 
wirtschaftlich ist und praktisch schwer durchfuhrbar ware. 

Aus 12] ist ein sogenannter MAP-Algorithmus (Maximum a Poste- 
riori) zum Adaptieren der akustischen Modelle durch den An- 
wender auf Basis eines bestimmten Satzes von Sprachproben be- 
kannt. Hierbei muS der Erwerber des Spracherkennungs systems 
Sprachproben von mehreren Sprechern zur Verfugung stellen. 
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Die Umadaption des Codebuches erfolgt dabei durch uberwachtes 
Lernen, d. h. daS dem System die korrekte Transliteration ei- 
ner AuSerung mitgeteilt werden raufi. Die hierbei erforderli- 
chen komplizierten Arbeitsschritte sind einem Kunden nicht 
5 zuzumuten . 

Beide Losungen aus dem Stand der Technik haben den gemeinsa- 
men Nachteil, da£ sie lediglich Off -Line ablaufen. Fur eine 
HMM Codebuchadaption mufi also das laufende System aufcer Be- 

10 trieb genommen werden, dam it die neuen Parameter, d. h. die 
entsprechenden Erkennungseinheiten in das System eingespielt 
werden konnen. Weiterhin erfordern die Vorgange des Trainings 
und des Adaptierens eine groSe Zeit fur die Einarbeitung und 
Durchfuhrung, was einen finanziellen Nachteil fur Erwerber 

15 des Systems bedeutet. HSufig wird deshalb bei Auslieferung 

des Produkts ein Ausgangscodebuch fur die HMM bereitgestellt . 
Aus dem Stand der Technik bieten sich zwei Trainings - 
strategien hierfur an. 

20 Einerseits kann das Codebuch auf Basis eines phonetisch aus- 
geglichenen Trainingsdatensatzes generiert werden. Derartige 
Codebucher bieten den Vorteil, da£ sie mit alien denkbaren 
Anwendungsf alien von unbekannten Aufgaben ("Tasks") fertig 
werden, da sie keine Erkennungseinheiten bevorzugen. Anderer- 

25 seits kann wenn m5glich ein Spezialistencodebuch trainiert 
werden. Dabei wird das Spracherkennungssystem exakt auf den- 
selben Wortschatz trainiert, welcher in der Endapplikation 
eine Rolle spielt. Hierdurch wird eine hdhere Erkennungsrate 
fur die Spezialanwendung hauptsachlich dadurch erzielt, daE 

30 das Spracherkennungssystem von Koartikulationen Gebrauch ma- 
chen kann, welche es schon in der Trainingsphase trainiert 
bekam. Fur Anwendungen bei denen sich das Lexikon andert, 
zeigen solche Spezialistencodebucher aber schlechtere Lei- 
stungen. 

35 

1st das Lexikon und damit der Wortschatz der Endanwendung, 
wie in dem fur die Erfindung relevanten Fall, veranderbar, 
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Oder zum Trainings zeitpunkt gar ganzlich unbekannt, so sind 
Hersteller folglich haufig bestrebt, ein moglichst allgemein 
gehaltenes Codebuch in ihre Spracherkennungssysteme einzuar- 
beiten. 

Weiterhin besteht ein grofies Problem darin, dafc fur jede 
Sprache in welcher die Spracherkennungstechnologie eingefuhrt 
werden soil, neue akustisch phonetische Modelle trainiert 
werden mussen, urn eine Landeranpassung durchfuhren zu konnen. 
Meistens werden bei Spracherkennungssystemen HMM zur Model - 
lierung der sprachspezif ischen Laute verwendet. Aus diesen 
statistisch modellierten Lautmodellen werden im AnschluS aku- 
stische Wortmodelle zusatnmengef ugt , welche wahrend eines 
Suchprozesses beim Spracherkennungsvorgang erkannt werden. 
Zum Training dieser Lautmodelle werden sehr umfangreiche 
Sprachdatenbanken benotigt, deren Sammlung und Aufbereitxang 
einen auSerst kosten- und zeitintensiven ProzeS darstellt. 
Hierdurch entstehen Nachteile bei der Portierung einer 
Spracherkennungstechnologie von einer Sprache in eine weitere 
Sprache, da die Erstellung einer neuen Sprachdatenbank einer- 
seits eine Verteuemng des Produktes bedeutet und anderer- 
seits eine zeitliche Verzogerung bei der Markteinfuhrung be- 
dingt . 

In gangigen erwerbbaren Spracherkennungssystemen werden aus- 
schliefilich sprachspezif ische Modelle verwendet. Zur Portie- 
rung dieser Systexne in eine neue Sprache werden umfangreiche 
Sprachdatenbanken gesammelt und aufbereitet. Anschliefiend 
werden die Lautmodelle fur die neue Sprache mit diesen gesam- 
melten Sprachdaten von Grund auf neu trainiert. 

Urn den Aufwand und die Zeitverzogerung bei der Portierung von 
Spracherkennungssystemen in unterschiedliche Sprachen zu ver- 
ringern, sollte also untersucht werden, ob einzelne Lautmo- 
delle fur die Verwendung in verschiedenen Sprachen geeignet 
sind. Hierzu gibt es in [4] bereits AnsStze mehrsprachige 
Lautmodelle zu erstellen und diese bei der Spracherkennung in 
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den jeweiligen Sprachen einzusetzen. Dort werden auch die Be- 
griff e Poly- und Monophoneme eingefuhrt. Wobei Polyphoneme 
Laute bedeuten, deren Lautbi ldungsei gens chaf ten uber tnehrere 
Sprachen hinweg cLhnlich genug sind, um gleichgesetzt zu wer- 
5 den. Mit Monophonemen werden Laute bezeichnet, welche sprach- 
spezifische Eigenschaf ten aufweisen. Um fur solche Entwick- 
lungsarbeiten und Untersuchungen nicht jedesmal neue Sprach- 
datenbanken trainieren zu muss en, stehen solche schon als 
Standard zur Verfugung [8], [6j, [9]. Aus [10] ist es bekannt 
10 vorhandene mehrsprachige Modelle zum Segment ieren der Sprach- 
daten in einer Zielsprache zu verwenden. Das Training der 
Lautmodellle wird dann in der Zielspache durchgef uhrt . Bin 
weiterer Stand der Technik zur mehrsprachigen Verwendung von 
Lautmodellen ist nicht bekannt. 

15 

Die der Erfindung zugrundeliegende Aufgabe besteht also dar- 
in ( ein Verfahren zur Anpassung eines HMM in einem Spracher- 
kennungssystem anzugeben, bei dem die Anpassung wahrend des 
laufenden Betriebs des Spracherkennungssystems erfolgt. Ins- 
20 besondere sollen durch die Anpassung die oben beschriebenen 
Komplikationen kompensiert werden, welche sich aus der Ande- 
rung des Lexikons und damit der Task ergeben. 

Diese Aufgabe wird gemaE den Merkmalen des Patentanspruches 1 
25 gelost . 

Eine weitere Aufgabe besteht demnach darin, ein Verfahren zur 
Bildung und Adaption spezieller mehrsprachenverwendbarer HMM 
in einem Spracherkennungssysten anzugeben, durch welches der 
30 Port ierungsauf wand von Spracherkennungssystemen in eine ande- 
re Sprache minimiert wird, indem die Parameter in einem mul- 
tilingualen Spracherkennungssytem reduziert werden. 

Diese Aufgabe wird gemafi den Merkmalen des Patentanspruches 8 
35 gelost. 
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Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Anspruchen . 

Der erf indungsgemSSe Weg sieht es dazu vor, ein allgemein ge- 
haltenes Codebuch, welches beispielsweise HMM enthSlt, die 
fur mehrere Sprachen gemeinsam Verwendung finden, als Saatmo- 
dell zu verwenden und es im laufenden Betrieb bei einem ver- 
anderten Lexikon an dieses neue Lexikon anzupassen. 

Besonders vorteilhaft wird durch das Verfahren eine Anpassung 
im Betrieb dadurch erreicht, daS ein bereits erkannter Merk- 
malsvektor einer LautauSerung zu einer Verschiebung des ge- 
speicherten Mittelpunktsvektors im HMM-Codebuch fuhrt, indem 
mittels eines Anpassungsf aktors im Betrieb nach dem Erkennen 
des Wortes Oder der Lautfolge, eine Verschiebung des Mittel- 
punktes der Wahrscheinlichkeitsverteilung der hidden- Markov- 
Modelle in Richtung des erkannten Merkmalsvektors erfolgt. 
Die Lernrate kann dabei durch den Anpassungsf aktor beliebig 
eingestellt werden. 

Vorteilhaft kann beim Verfahren die Zuordnung der Merkmals- 
vektoren zu den HMM mit Standardverfahren, wie dem Viterbi- 
Algorithmus durchgefuhrt werden. Durch Anwendung des Viterbi- 
Algorithmus liegt nach Erkennung eine eindeutige Zuordnung 
der Merkmalsvektoren zu den gespeicherten Mittelpunktsvekto- 
ren des HMM Codebuchs vor. 

Besonders vorteilhaft werden die anzupassenden und zu erken- 
nenden Lautmodelle in einem standardisierten HMM-Codebuch zur 
Verfugung gehalten, welches als Grundlage fur alle anzupas- 
senden Praxismodelle dienen kann und somit fur alle anzupas- 
senden Systeme nur einmal bei der Erstellung trainiert, bzw. 
in Form eines Codebuches mit Mehrsprachen-HMM bereitgestellt 
werden muE. 

Besonders vorteilhaft erfolgt die Anpassung des Schwerpunkt- 
vektors an den erkannten Merkrnalsvektor bei Laplace- und 
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Gaufc- Wahrscheinlichkeitsdichteverteilungen der hidden-Mar- 
kov-Modelle mit den speziell angegebenen Gleichungen, da da- 
mit ein vergleichsweise geringer Rechenaufwand verbunden ist. 

5 Vorteilhaft wird beim aufgezeigten Verfahren eine noch hohere 
Erkennungsrate erzielt, wenn im Fall einer unsicher erkannten 
Lautaufierung diese komplett zuruckgewiesen wird und keine An- 
passung erf olgt . 

10 Besonders vorteilhaft wird bei der Zuruckweisung die Anzahl 
der Lauthypotesen nach der Viterbi-Suche und deren zugehorige 
Trefferraten der jeweiligen Hypothesen in bezug auf die AuSe- 
rung berucksichtigt . Die Zuruckweisung wird in diesem Fall 
von den Unterschieden zwischen den Trefferraten abhangig ge- 

15 macht, da diese Unterschiede eine Qualit&tsangabe fur die Gu- 
te der gefundenen Losung darstellen. Bevorzugt kann bei gro- 
fien Unterschieden keine Zuruckweisung erfolgen und bei klei- 
nen Unterschieden muS eine Zurflckweisung erfolgen. Bevorzugt 
wird fur diesen Fall eine Schranke der Unterschiede in den 

20 Trefferraten festgelegt, bei deren Unterschreiten eine Zu- 
ruckweisung erf olgt, da mit der Uberwachung einer Schranke 
lediglich ein geringer Rechenaufwand verbunden ist. 

Ein Vorteil des aufgezeigten Verfahrens besteht darin, dafi 
25 ein statistisches AhnlichkeitsmaS eingesetzt wird, welches es 
erlaubt, aus einer gegebenen Anzahl von verschiedenen Lautmo- 
dellen fur ahnliche Laute in unterschiedlichen Sprachen das- 
jenige Iiautmodell auszuwShlen, welches in seiner Charakteri- 
stik alle zur Verfugung stehenden Merkmalsvektoren der jewei- 
30 ligen Laute am besten beschreibt. 

Vorteilhaft wird als Mafi fur die Auswahl des besten HMM fur 
unterschiedliche Lautmerkmalsvektoren der logarithtnische 
Wahrscheinlichkeitsabstand zwischen den jeweiligen HMM und 
35 einem jeden Merkmalsvektor ermittelt . Hierdurch wird ein MaE 
zur Verfugung gestellt, welches experimentelle Befunde bezug- 
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lich der Ahnlichkeit von einzelnen Lautmodellen und deren Er- 
kennungsraten widerspiegelt . 

Vorteilhaft wird als Mafi fur die Beschreibung eines moglichst 
reprSsentativen HMM der arithmetische Mittelwert der log- 
arithmischen Wahrscheinlichkeitsabst&nde zwischen jedem HMM 
und den jeweiligen Merkmalsvektoren gebildet, da hierdurch 
ein syrametrischer Abstandswert erhalten wird. 

Vorteilhaft wird das Beschreibungsmafi fur die representative 
Eigenschaft eines HMM zur Beschreibung von Lauten in unter- 
schiedlichen Sprachen dadurch gebildet, dafc die erf indungsge- 
ma£en Gleichungen 5 bis 8 angewendet werden, da hierdurch ein 
geringer Rechenaufwand entsteht. 

Vorteilhaft wird fur die Anwendung eines BeschreibungsmaEes 
eine Schrankenbedingung vorgegeben, mit der eine Erkennungs- 
rate des reprasentierenden HMM eingestellt werden kann. 

Besonders vorteilhaft wird durch das Verfahren der Speicher- 
aufwand fur eine Sprachbibliothek reduziert, da ein Modell 
fur mehrere Sprachen verwendet werden kann. Ebenfalls wird 
der Port ierungsauf wand von einer Sprache in die andere mini- 
miert, was einen reduzierten Zeitaufwand fur die Portierung 
bedingt, der sich durch die On- Line -Adapt ion auch auf Null 
vermindern kann. Ebenso wird vorteilhaft ein geringerer Re- 
chenaufwand bei der Viterbi-Suche ermoglicht, da bei- 
spielsweise bei mehrsprachigen Eingabesystemen weniger Mo- 
delle uberpruft werden mussen. 

Besonders vorteilhaft werden besondere HMM zur Verwendung in 
mehrsprachigen Spracherkennungssystemen eingesetzt . Durch 
diese Vorgehensweise konnen fur Laute in mehreren Sprachen zu 
Polyphonem-Modellen zusammengef afite HMM eingesetzt werden. 
Bei denen Uberlappungsbereiche der verwendeten Standard- 
wahrscheinlichkeitsdichteverteilungen bei den unterschiedli- 
chen Modellen untersucht wurden. Zur Beschreibung des Poly- 
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phonem-Modelles kann eine beliebige Anzahl von identisch bei 
den unterschiedlichen Modellen verwendeten Standardwahr- 
scheinlichkeitsdichteverteilungen he range zogen werden. Vor- 
teilhaf t k&nnen auch mehrere Standardverteilungen aus unter- 
5 schiedlichen Sprachmodellen verwendet we r den, ohne daS die 
hierdurch bewirkte Verwischung der einzelnen Sprachcharakte- 
ristika zu einer signifikant niedrigeren Erkennungsrate beim 
Einsatz dieses Model Is fuhren wurde. Als besonders vorteil- 
haf t hat sich hier der Abstandsschwellenwert funf zwischen 
10 ahnlichen Standardwahrscheinlichkeitsverteilungsdichten be- 
w£hrt . 

Besonders vorteilhaft we r den beim Binsatz des Verfahrens mit 
drei Zustanden aus Anlaut, Mittellaut und Ablaut modellierte 
15 HMM verwendet, da hierdurch eine hinreichende Genauigkeit bei 
der Beschreibung der Laute erzielt wird und der Rechenauf wand 
bei der Brkennung und On-Line-Adaption in einem Spracherken- 
ner gering bleibt . 

20 Im folgenden werden Ausfuhrungsbeispiele der Erfindung anhand 
von Figuren weiter erlfiutert. 

Figur 1 zeigt ein Blockdiagramm eines Spracherkennungsverf ah- 
rens mit Codebuchadaption* 
25 Figur 2 zeigt dabei den Aufbau eines einzigen Multilingualen 
Phonemes . 

In Figur 1 wird in Form eines Blockdiagramms schematisch er- 
lSutert, welche einzelnen Bearbeitungsschritte das Verfahren, 
30 bzw. ein Spracherkennungs system, das nach dem Verfahren ar- 
beitet , erf ordert . 

In einer Erkennungsstuf e ERKE des Spracherkennungs sy stems 
wird Sprache SPRA erkannt und als Wort WO ausgegeben. Es kon- 
nen auch Untereinheiten von Worten durch hidden -Markov - 
35 Modelle HMM modelliert worden sein und als Worte WO ausgege- 
ben werden. In einem Lexikon LEX des Spracherkennungssystems 
sind beispielsweise als vom Hersteller vorgegebene Wort- 



! 
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strings ANW fur die Anwendung in Form von ASCII -Zeichen abge- 
legt. In einem HMM-Codebuch CB sind zuvor trainierte und mit 
detn Lexikon LEX ausgelief erte Parameter fur hidden-Markov- 
Lautmodelle abgelegt. Fur eine mehrsprachige Anwendung des 
5 Spracherkennungs systems, kann das Lexikon auch HMM enthalten, 
die speziell fxir eine Mehrsprachenanwendurig bereitgestellt , 
bzw. gebildet werden. Anhand des Lexikons LEX und des HMM- 
Codebuches CB ffihrt der Spracherkenner ERKE die Erkennung von 
Worten aus Sprachsignalen SPRA durch. Zur Anpassung des Spra- 

10 cherkennungssystems an eine spezifische Anwendung, kann das 
Lexikon LEX beispielsweise vom Anwender durch anwendungs spe- 
zifische Wortstrings ANW abgeandert werden. Hierzu konnen ge- 
gebenenfalls auch Wortstrings in einer Fremdsprache eingege- 
ben werden. Fremdsprache bedeutet in diesem Zusammenhang, dafi 

15 die Sprache bei der Bereitstellung des Codebuches nicht be- 
rucksichtigt wurde. GemaS dem Verfahren wird nach Erkennung 
eines speziellen Wortes oder einer Erkennungseinheit WO, ei- 
nem Adaptionsbaustein ADAP uber eine Verbindungsleitung 100 
mitgeteilt, welches dieser Worte erkannt wurde und welche 

20 Segmente damit verbunden sind. Anschliefiend erfolgt bevorzugt 
eine Anpassung, der mit dem erkannten Wort verbundenen Para- 
meter der hidden-Markov-Model le an den Merkmalsvektor , wel- 
cher aus dem Sprachsignal abgeleitet wurde, Im Adaptions- 
baustein ADAP kann beispielsweise eine bevorzugt auszufuh- 

25 rende Adaptionsstrategie zur Anpassung der hidden-Markov-Mo- 
delle festgelegt sein. In einer Anpassungsvariante konnen 
beispielsweise Worte mit unsicheren Trefferraten fur die ein- 
zelnen Hypothesen nach der Viterbi-Suche, ausgelassen werden. 
Da erf indungsgemSS neue Koartikulationen gelernt werden sol- 

30 len, kdnnen bevorzugt lediglich nur solche Merkmalsvektor en 
zu Anpassung ausgewahlt werden, welche speziell den neu zu 
lernenden Koartikulationssegmenten zugeordnet werden. Fall- 
weise kann es jedoch guns tiger sein alle zur Verfiigung ste- 
henden Merkmalsvektor en zur Anpassung auszuwahlen, urn sicher- 
35 zustellen, daE auch solche Koartikulationen von der Anpassung 
erfaJSt werden, welche uber ein Diphon hinaus reichen. 
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Der Schwerpunktsvektor der zugrundeliegenden hidden -Markov- 
Modelle wird an den Merkmalsvektor angepafit, indem beispiels- 
weise Komponentenweise eine Mittelwertbildung durchgefuhrt 
wird und diese Mittelwertbildung zu einer Verschiebung des im 
5 Codebuch CB gespeicherten Merkmalsvektors fuhrt. Hierzu wer- 
den die jeweiligen Mittelwerte mit einetn Anpassungsf aktor, 
der hier als Lernschrittweite fungiert, multipliziert , so dafi 
ein neuer Schwerpunktsvektor des im Lexikon gespeicherten 
hidden-Markov-Modelles bzw. der gespeicherten hidden-Markov - 
10 Modelle entsteht. Dieser adaptierte Schwerpunktsvektor fun- 
giert in Zukunft als Ausgangsgrofie bei der Erkennung von 
Sprachsignalen im Spracherkenner ERXE. 

Die Grundidee besteht dabei darin, dafi das System wahrend der 

15 Anwendung beim Auf treten eines ver&nderten und vom Anwender 
vorgegebenen Lexikons automatisch nachtrainiert bzw. 
nachadaptiert wird. Beispielsweise wird eine solche Ver&nde- 
rung f estgestellt, indem ins Lexikon LEX eingegebene Wort- 
strings ANW mit dem Lexikoninhalt verglichen werden. Auf die- 

20 se Weise k6nnen auch Wortstrings in einer Fremdsprache ein- 

fach identif iziert werden, um ggf . spezielle Mehrsprachen-HMM 
heranzuziehen. Vorzugsweise erfolgt gleichzeitig mit der Ein- 
gabe des Wortstrings in das Lexikon eine erste Eingabe des 
Wortes als Sprache SPRA, um eine erste Zuordnung zwischen den 

25 im Codebuch CB vorhandenen HMM und dem neu zu erkennenden 
Wort herzustellen. Dieses adaptive Nachtuning der Er- 
kennungsparameter erfolgt gemafi der Erfindung anhand von 
Sprachdaten, welche wahrend der Bedienung des Systems anfal- 
. len. Bevorzugt wird die Adaption dabei bei jeder Anderung 

30 nachgefuhrt, ohne dafi wahrend der Entwicklungsphase des Spra- 
cherkennungssystems das jeweilige Vokabular fur die Er- 
stellung des Lexikons LEX bekannt sein muB. Gegenuber dem 
Stand der Technik weist das erf indxingsgemSfie Verfahren den 
Vorteil auf, dafi es On-Line abl&uft, ohne das ein Satz spezi- 

35 eller Sprachproben fur das Training benotigt wird. Hierdurch 
ergibt sich ebenfalls die Moglichkeit Mehrsprachen-HMM On- 
Line an eine Fremdsprache anzupassen. Gemafi dem Adapt ionsver- 
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fahren erfolgt die Anpassung dabei bevorzugt unuberwacht im 
Hintergrund des Systems, wozu es seine eigenen Ergebnisse zur 
Adaption wahrend der Anwendung verwendet . Die dabei beno- 
tigten Rechenschritte sind relativ einfach zu implement ieren 
und erfordern eine geringe Rechenleistung. 

Der grundlegende Gedanke besteht dabei darin, dafi die Spra- 
cherkennung auf HMM basiert. Beim Training solcher Modelle 
werden insbesondere die Parameter zur Berechnung der Emissi- 
onswahrscheinlichkeiten bestimmt. Die zur Berechnung bendtig- 
ten Wahrscheinlichkeitsdichten werden durch Standardvertei- 
lungen, wie z. B. Gau£-, Oder Laplace- Verteilungen angenS- 
hert. Wichtigster Parameter fur diese Approximation ist dabei 
der Mittelpunktsvektor, bzw. der Schwerpunktsvektor der je- 
weiligen Verteilungen. Diese Parameter sind im Codebuch ge- 
speichert. Wahrend der Spracherkennung liegt bei der Erken- 
nung mit dem sogenannten Viterbi-Algorithmus nach der Klassi- 
fizierung, eine Zuweisung einzelner Spracheinheiten, welche 
durch Merkmalsvektoren reprasentiert werden, zu bestimmten 
Brkennungssegmenten und den entsprechenden Wahrscheinlich- 
keitsdichteverteilungen vor. Nach dem aufgezeigten Verfahren 
erfolgt der eigentliche Adaptionsschritt bevorzugt durch eine 
Neuberechnung der Mittelpunkte der betrof fenen Wahrschein- 
lichkeitsdichteverteilungen xinter Benutzung der in der Anwen- 
dung angefallenen Merkmalsvektoren. Besonders vorteilhaft 
wird dabei die Adaption nach jeder abgeschlossenen Aufcerung 
ausgefuhrt, sobald der Viterbi-Pfad mit der eindeutigen Zu- 
ordnung von Merkmalsvektor zu Wahrscheinlichkeitsdichtever- 
teilung vorliegt. 

Ein Problem welches der Erfindung lost besteht dabei darin, 
daS das Training eines groEen wortschatzunabhangigen hidden- 
Markov-Modelles, welches mit alien Erf ordernissen aus alien 
denkbaren praktischen Anwendungen fertig wird, nicht moglich 
ist [1] . An praktische Anwendungen sind dabei besonders 
strenge Anf orderungen zu stellen. Adapt ions verfahren zur 
Spracherkennung sol It en dabei 
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- wenig rechenauf wendig und einfach zu implementieren 

- unuberwacht 

- sprecherunabhangig 

- On-Line arbeiten und im voraus kein vorheriges Adaptionsset 
5 erfordern. Besonders soli fur die Anwendung in dem erf in - 

dungsgemaSen Verfahren ein HMM-Codebuch als Saatmodell einge- 
setzt werden, welches wortschatzunabhangig trainiert wurde, 
so daS es keine Merkmale und Bevorzugungen von irgendwelchen 
speziellen Krkennungseinheiten aufweist. Beispielsweise kon- 

10 nen die zugrundeliegenden HMM als monophone Modelle trainiert 
sein, jedoch konnen auch hidden-Markov-Modelle mit verbunde- 
nen Diphonen eingesetzt werden. Bei der Erprobung des erfin- 
dungsgemaSen Verfahrens wurden als Saatmodell hidden - Markov - 
Modelle verwendet, welche monophon trainiert wurden. Die 

15 Strategie bei der Anpassung des Codebuches nach dem Verfahren 
besteht dabei beispielsweise darin, sein allgemeines monopho- 
nes Saatmodell, beispielsweise auch fur Mehrsprachen HMM, als 
Ausgangsbasis zu verwenden und sein phonemisches Invent ar zur 
Erstellung eines arbeitsf ahigen Diphon-Modelles zu verwenden, 

20 wann immer das Lexikon verandert wird und ein neues kontex- 
tabhangiges Segment fur geSnderte Betriebserf ordernisse er- 
stellt werden muE. Dabei wird das jeweilige Modell bevorzugt 
wahrend des Erkennungsprozesses On-Line adaptiert. Hierzu 
werden bevorzugt folgende Schritte ausgefuhrt: 

25 - Zunachst wird das Lexikon LEX untersucht um herauszuf inden, 
welche kontextabhangigen Segmente ben6tigt werden. 

- Falls ein auf tauchendes Segment bis dahin unbekannt war 
werden die korrespondierenden kontextunabhangigen Segment - 
verteilungen vom allgemeinen Modell in das neue Modell des 

30 Arbeit sworterbuches kopiert. 

- Erkennung von eingehenden SprachauSerungen . 

- Fallweise Zuruckweisung von unsicheren Erkennungsergebnis- 
sen wenn das gewunscht wird, 

- On- Line-Training des Arbeitscodebuches mit der beschriebe- 
35 nen Anpassungsf ormel auf Basis der eingehenden Sprachdaten. 

Zur Adaption der Modelle, wird der Schwerpunktsvektor der er- 
kannten hidden-Markov-Modelle an den Merkmalsvektor des ein- 
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gehenden Sprachsignales angepafct. Dabei wird bevorzugt gemafi 
einer Lernrate eine Verschiebung des im Lexikon gespeicherten 
Schwerpunktsvektors in Richtung des erkannten Merkmalsvektors 
der entsprechenden Laut&uSerungen durchgef uhrt . Dabei wird 
davon ausgegangen, dafi die relevanten Unterschiede zwischen 
den aufgabenspezif ischen Versionen des Lexikons hauptsachlich 
die Parameter der Wahrscheinlichkeitsdichteverteilung der 
hidden-Markov-Modelle angehen, wobei insbesondere der Ort der 
Mittelwerte im akustischen Raum betroffen ist . 

Von einer Merkmalsextraktionsstuf e eines Spracherkennungssy- 
stems wird dabei eine eingehende Aufierung bevorzugt in eine 
Serie von Merkmalsvektoren transf ormiert : 

X={x 1 ,X 2 ,....,X T } (1) 

Unter Verwendung des Viterbi-Algorithmus wird dann beispiels- 
weise jeder einzelne Merkmalsvektor x, mit t = 1 # 2, T 
einem Zustand 0^ des besten hidden-Markov-Modelles i nach 
der Erkennung zugewiesen. Fur den Fall, dafi multimodale 
Laplace -Verteilungen fur die Modellierungen der hidden-Mar- 
kov-Modelle und der Zustands-Emissionswahrscheinlichkeiten 
verwendet werden, laSt sich die korrespondierende Wahr- 
scheinlichkeitsdichteverteilung des S-ten Zustandes eines 
hidden-Markov-Modelles wie folgt approximieren 

blM = 2>U e ° ! (2) 

m=l 

Dabei sind M*, C^unda Konstanten, welche bevorzugt wahrend 
des Trainings bestimmt werden. Bei einer gegebenen Zuordnung 
eines erkannten Merkmalsvektors und eines Zustandes wird dann 
bevorzugt der Mittelwert £l <nM bestimmt, welcher am nachsten 
am Merkmalsvektor X t liegt, wobei der City-Blockabstand (2*) 
als Mafi benutzt wird und n die Komponente eines Vektors be- 
zeichnet . 
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*-fl| = Zl X »-^»l (2*) 
n 

Der am Nachsten liegende mittlere Abstand wird dabei gemSS 

?U4 + i=( 1 - a )K*jr +a ^ (3 > 

aktualisiert . Gleichung 3 kann man sich geometrisch wie folgt 
5 interpret iert vorstellen. Der aktualisierte Schwerpunktsvek- 

tor ji^nj^+i liegt auf einer Geraden, welche durch den alten 

Mittelpunktsvektor fl^t und den aktuellen Merkmalsvektor X t 
geht. Der Parameter a wird dabei als Adaptionsf aktor oder als 
Lernrate verwendet. Fur den speziellen Fall, daS a = 0 ist, 
10 wird keine Adaption durchgefuhrt , wahrend fur a = 1 der aktu- 
elle Schwerpunktsvektor dem aktuellen Merkmalsvektor ent- 
spricht . 

In alien Anwendungen von Dialogsystemen konnen ebenfalls Er- 
15 kennungsfehler auftreten. Die Ursachen bestehen dabei bei- 
spielsweise in einem falschen Eingabewort durch den Benutzer 
oder einfach in einer falschen Klassif izierung durch die Er- 
kennungseinheit . Fur den Fall da£ ein solcher Fehler auf- 
tritt, sollte beispielsweise ein Dialogmanager den Benutzer 
20 zu einer erneuten Eingabe auffordern. Vereinfacht kann aber 
auch lediglich eine besonders gute AuEerung ausgewShlt wer- 
den. Hierzu wird beispielsweise eine relativ einfache stati- 
stische Zuruckweisungsstrategie verwendet. Die Tref ferrate S 0 
der besten und die Trefferrate S x der zweitbesten Lauthypo- 
25 these nach der n-Bestensuche im Viterbi-Algorithmus wird da- 
bei untersucht. 



rejectionflag = 



1 if (sj-So^r^ 
0 else 



(4 ) 



Falls die Zuruckweisungsmarke rejectionflag 1 betragt, so 
wird die korrespondierende AuSerung bevorzugt durch den Adap- 
30 tionsalgorithmus unterdruckt. Bevorzugt wird die Schranke fur 
die Zuruckweisung dadurch bestimmt, daS empirisch d. h. 
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der Mittelwert aller Tref ferraten pro Wort von eingehenden 
Aufierungen ermittelt wird. Bevorzugt ergibt sich aus Experi- 
menten der Grenzwert R^e* * 0.005 S^. Mit diesem Grenzwert 
wird eine Zuriickweisungsrate von falschen Aufierungen von 61,2 
5 % erreicht und die Adaption kann dabei mit sicherer klassifi- 
zierten Daten durchgefuhrt werden, als dies der Fall ware, 
wenn keine Zuruckweisung durchgefuhrt wurde. Bei experimen- 
tellen Uberpruf ung des Verfahrens wurde von 2000 Test-Au- 
Serungen eines geanderten Vokabulars fur die Adaption ausge- 

10 gangen. Bezuglich des Adapt ions faktors a und seiner Dimensio- 
nierung wurde dabei f estgestellt , daS bereits kleine Werte 
von a, d. h. 0,025 die Fehlerrate bei der Brkennung signifi- 
kant verringern. Ein breites Optimum von a wurde dabei zwi- 
schen 0,05 und 0,01 f estgestellt . Dabei wurde bei einem Opti- 

15 mum von 0,075 eine Verbesserung der Fehlerrate von 34,5 % bei 
der Erkennung von Worten erzielt. Das bedeutet, dafi sich 
durch das erf indungsgemafie Verfahren Erkennungseinheiten mit 
dem angepafiten Codebuch CB urn 34,5 % besser erkennen lassen, 
als dies ohne seine Anwendung der Fall w3xe. 

20 

Fur den Fall dafi eine Zuruckweisung wie beschrieben durchge- 
fuhrt wird, ergibt sich ein verbesserter Wert des Anpassungs- 
faktors a zu 0,125. Dieser verbesserte Wert von a fuhrt zu 
einer Reduktion der Fehlerrate von 40,1 % bei dem experimen- 

25 tell verwendeten Wortschatz. Der hohere Faktor von a l&fit 
sich dadurch erklaren, dafi durch die Zuruckweisung von fal- 
schen Daten ein besserer Merkmalsvektor fur die Anpassung des 
HMM-Codebuches vorliegt und dafi damit eine hohere Lern- 
schrittweite gew&hlt werden kann. Die experimentellen Befunde 

30 haben auch gezeigt, dafi mit dem adaptiven Verfahren nahezu 
dieselbe Erkennungsrate erreicht wird, wie dies fur ein spe- 
zielles Modell fUr den entsprechenden Anwendungsf all erzielt 
wurde. Die Erkennungsrate lag dabei nur 0,7 % unter der des 
Speziallexikons . 

35 
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Figur 2 zeigt den Aufbau eines einzigen Multilingualen Phone- 
mes. In diesem Fall ist es das Phonem M das dargestellt wird. 
Die Zahl der Wahrscheinlichkeitsdichten und die Erkennungsra- 
te fur dieses Phonem sind in Tabelle 1 angegeben: 

5 



Thr. 


#densit (a,b, c) . 


Engl . [%] 


Germ.[%] 


Span.[%] 


0 


341(0 0 341) 


46.7 


44.7 


59.4 


2 


334(0 14 327) 


45.0 


46.4 


57.5 


3 


303(27 34 280) 


48.0 


45.8 


57.5 


4 


227(106 57 187) 


50.9 


44.1 


58.7 


5 


116(221, 48,72) 


49.3 


43.1 


57.0 


6 


61(285, 22, 34) 


41.2 


38.6 


50.4 



In Figur 2 ist der Anlaut L, der Mittellaut M und der Ablaut 
R des Phonem-Modelles dargestellt. Fur die unterschiedlichen 
Sprachen Englisch EN, Deutsch DE und Spanisch SP sind die 

10 Schwerpunkte der Wahrscheinlichkeitdichteverteilungen der 

einzelnen verwendeten Standardwahrscheinlichkeitdichten ein- 
getragen und als WD gekennzeichnet . Hier ist beispielsweise 
ein HMM aus drei Teilzustanden dargestellt. Die Erfindung 
soil jedoch nicht lediglich auf Anwendung solcher HMM be- 

15 schrankt werden, obwohl diese unter Berucksichtigung des Kri- 
teriums, das ein minimaler Rechenaufwand der Erkennung durch - 
gefuhrt werden soil ein gewisses Optimum darstellen. Die Er- 
findung kann ebenso auf HMM angewendet werden, die eine ande- 
re Anzahl von Zustanden aufweisen. Durch die Erfindung soil 

20 insbesondere erreicht werden, daS der Port ierungsauf wand bei 
der Portierung von Spracherkennungssystemen in eine andere 
Sprache reduziert, bzw. vermieden wird und daS die verwende- 
ten Rechenresourcen durch Reduktion der zugrundeliegenden Pa- 
rameter m6glichst gering gehalten werden. Beispielsweise kon- 

25 nen durch derartige Spracherkennungssysteme begrenzte Hardwa- 
reerfordernisse besser erfullt werden, insbesondere wenn ein- 
und dasselbe Spracherkennungssystem fur Mehrsprachenanwendung 
in einem Gerat zur Verfugung gestellt werden soil. 
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ZunSchst sollte um das Ziel 2u erreichen, die Ahnlichkeiten 
von Lauten in unterschiedlichen Sprachen auszuschdpf en und 
beim Modellieren zu berucksichtigen, beachtet werden, daS 
sich die Phoneme in verschiedenen Sprachen unterscheiden kon- 
5 nen. Die Grunde hierfur bestehen vor alien Dingen in: 

- Unterschiedlichen phonetischen Kontexten, wegen der unter- 
schiedlichen Phonems&tze in den verschiedenen Sprachen; 

- unterschiedlichen Sprechweisen; 

- verschiedenen prosodischen Merkmalen; 

10 - unterschiedlichen allophonischen Variationen. 

Ein besonders wichtiger Aspekt, welcher dabei zu berucksich- 
tigen ist, besteht im Prinzip der genugenden wahrnehmungs - 
technischen Unterscheidbarkeit der Phoneme [7]. Dies bedeu- 

15 tet, dafc einzelne Laute in verschiedenen Sprachen akustisch 
unterscheidbar gehalten werden, so da£ es fur den einzelnen 
Zuhdrer leichter ist sie voneinander zu separieren. Da aber 
jede einzelne Sprache einen unterschiedlichen Phonemschatz 
hat, werden die Grenzen zwischen zwei Shnlichen Phonemen in 

20 jeder einzelnen Sprache sprachspezif isch festgelegt, Aus die- 
sen Grunden hat die AusprSgung eines bestimmten Lautes eine 
sprachspezif ische Komponente. 

Bevorzugt werden die zugrundeliegenden Phoneme mittels konti- 
25 nuierlichen dichten hidden-Markov-Modellen (CD-HMM) model- 
liert [5]. Als Dichtefunktionen werden haufig Laplace- 
Mischungen benutzt. Dabei besteht jedes einzelne Phonem aus 
drei Zustanden von links nach rechts gerichteten HMM. Die 
akustischen Merkmalsvektoren bestehen daibei beispielsweise 
30 aus 24 mel-skalierten cepstral, 12 delta cepstral, 12 delta 
delta cepstral, Energie, delta-Energie und delta delta - 
Energie-Koef f izienten. Beispielsweise wird als LSnge des Un- 
tersuchungszeitfensters 25 ms gewahlt, wobei die Rahmenab- 
stande 10 ms zwischen den einzelnen Rahmen betragen. Aus 
35 Grunden der begrenzten GroEe des Sprachkorpus werden bevor- 
zugt lediglich kontextunabhSngige generierte Phoneme ange- 
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wandt. Als besonders representatives Phoneminventar wird je- 
nes aus [6] gewahlt. 

Die Idee des Verfahrens best eh t darin, da£ zum einen ein zur 
5 Verfugung gestelltes Ahnlichkeitsmafi verwendet wird, urn aus 
standardmSSig verfugbaren Sprachphonetnbibliotheken fur unter- 
schiedliche Sprachen jenes HMM auswfihlen zu konnen, welches 
den Merkmalsvektoren, die aus den unterschiedlichen Lautmo- 
dellen der unterschiedlichen Sprachen abgeleitet werden, am 

10 nachsten kommt . Hierdurch ist es moglich, die Ahnlichkeiten 
zweier Phonem-Modelle zu ermitteln und uber dieses Ahnlich- 
keitenmaft basierend auf der Differenz der Log-Likelihood- 
Werte zwischen den Lautrealisierungen und Lautmodellen eine 
Aussage zu treffen, ob es sich lohnt, einen Laut fur mehrere 

15 Sprachen gemeinsam zu modellieren, bzw. ein betreffendes 

schon bestehendes HMM fur die Modellierung des Lautes in meh- 
reren Sprachen zu verwenden. Hierdurch wird die Zahl der Pa- 
rameter, welche bei der Spracherkennung und Adaption der Mo- 
delle zu beriicksichtigen sind reduziert, indetn die Zahl der 

20 zu untersuchenden HMM reduziert wird. 

Ein weiterer Losungsansatz besteht darin, ein spezielles zur 
Modellierung eines Lautes in mehreren Sprachen zu erstelltes 
Polyphonem-Modell zu verwenden. Zu dessen Erzeugung werden 

25 zunachst beispielsweise drei Lautsegmente, in Form eines An- 
lautes, Mittellautes und Ablautes gebildet, deren Zustande 
aus mehreren Wahrscheinlichkeitdichtefunktionen den sogenann- 
ten Mischverteilungsdichten mit den dazugehorigen Dichten be- 
stehen. Diese Dichten der uber verschiedenen Sprachen Shnli- 

30 chen Lautsegmente werden dann zu einem multilingual en Code- 
buch zusammengef a£t . Somit teilen sich Lautsegmente verschie- 
dener Sprachen die gleichen Dichten. Wahrend das Codebuch fur 
mehrere Sprachen gleichzeitig benutzt werden kann, werden 
beispielsweise die Gewichte, mit denen die Dichten gewichtet 

35 werden fur jede Sprache getrennt ermittelt und bereitge- 
stellt. 
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Zur Bildung eines geeigneten Ahnlichkeitsmafies werden dabei 
bevorzugt HMM mit drei Zustanden herangezogen . Das Abstands- 
oder AhnlichkeitsmaS kann dabei benutzt werden urn mehrere 
Phonem-Modelle zu einetn ntultilingualen Phonem-Modell zusam- 
5 menzufassen oder diese auf geeignete Weise zu ersetzen. Hier- 
durch kann ein multilingualer Phonemschatz bereitgestellt 
werden. Bevorzugt wird zur Messung des Abstandes bzw. zur Be- 
stiiranung der Ahnlichkeit von zwei Phonem-Modellen des selben 
Lautes aus unterschiedlichen Sprachen eine Mefigrofce verwen- 

10 det, welche auf der relativen Entropie basiert [3], Wahrend 
des Trainings werden dabei die Parameter der gemischten 
Laplacedichteverteilungen der Phonem-Modelle bestimmt. Wei- 
terhin wird fur jedes Phonem ein Satz von Phonemtokens X als 
Merkmalsvektor aus einetn Test- oder Entwicklungssprachkorpus 

15 extrahiert. Diese Phoneme konnen dabei durch ihr internatio- 
nal genormtes phonetisches Etikett markiert sein. Demnach 
werden zwei Phonem-Modelle X A und A. 5 und ihre zugehorigen 
Phonemtoken X t und Xj zur Bestimmung des AhnlichkeitsmaSes 
zwischen diesen unterschiedlichen Phonemen wie folgt behan- 

20 delt. 

d^Aj) = logp(X,|X i )-logp(x i |X j ) (5) 

Dieses Abstandsmafc kann als Log-Likelihood-Abstand angesehen 
werden, welcher darstellt wie gut zwei verschiedene Modelle 
zu dem selben Merkmalsvektor X x passen. Demgemafc wird der Ab- 
25 stand zwischen den beiden Modellen \ t und ^ gemcLfi: 

d^Xj) = logpfxjixj-togpjxjx,) (6) 

bestimmt. Um einen symmetrischen Abstand zwischen diesen bei- 
den Phonem-Modellen zu erhalten, wird dieser bevorzugt gemafi 

30 bestimmt. Anhand von experimentellen Befunden konnte festge- 
stellt werden, daB sich durchaus einige Phonem-Modelle aus 
anderen Sprachen besser fur die Verwendung in einem deutschen 
Spracherkennungssystem eignen, als ein deutsches Phonem-Mo- 
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dell. Beispielsweise gilt dies fur die Phoneme k, p und N. 
Pur diese Phoneme eignet sich das englische Phonem-Modell 
besser als das deutsche. W&hrend beispielsweise ein groBer 
Unterschied zwischen dem deutschen und dem englischen Modell 
5 uber den Umlaut aU beobachtet wurde, was bedeutet, daS fur 
beide Laute ein unterschiedliches Symbol im multilingualen 
Phonemschatz eingefuhrt werden sollte. Andererseits konnte 
fur den Umlaut al im deutschen und im englischen eine grofce 
Ahnlichkeit festgestellt werden, das bedeutet, daS lediglich 

10 ein Phonem-Modell fur beide Sprachen gleich gut Verwendung 
finden kann. Ausgehend davon sollte fur jedes Symbol eines 
multilingualen Phonemschatzes ein separates statistisches Mo- 
dell erzeugt werden. In [8] wurden Polyphoneme als solche 
Phoneme bezeichnet, die Shnlich genug sind, urn in verschiede- 

15 nen Sprachen als ein einziges Phonem modelliert zu werden. 

Ein Nachteil dieser Vorgehensweise besteht darin, da£ fur die 
sprachspezif ische Erkennung der vollstckndige akustische Raum 
des Polyphonems verwendet wird. Ziel ist es jedoch, die 
sprachabhangigen und die sprachspezif ischen akustischen Ei- 

20 genschaften eines multilingualen Modells zu kombinieren. Ge- 
mcifc der Erfindung sollen in einem Polyphonem-Modell solche 
Bereiche des akustischen Raumes eingegrenzt sein , in denen 
sich die verwendeten Wahrscheinlichkeitdichten der einzelnen 
Phoneme uberlappen. Dazu wird z.B. eine gruppierende Verdich- 

25 tungstechnik (agglommerative density clustering technique) 

eingesetzt, urn gleiche Oder ahnliche Ausprctgungen eines Pho- 
nems zu reduzieren. Besonders wichtig ist es dabei zu beach- 
ten, daS lediglich die Dichten der korrespondierenden Zust£n- 
de der einzelnen HMM in den Phonemen zusammengef aSt werden 

30 durfen. 

In Figur 2 ist dabei zu erkennen, daS die jeweiligen Dichten 
fur die einzelnen Zustande L, M und R in den eingegrenzten 
Regionen enthalten sind. Wahrend identische Dichten uber die 
35 einzelnen Sprachen EN, DE, und SP verteilt sind, variieren 
die Mischungsgewichte sprachabhangig . Zu berucksichtigen ist 
jedoch, dafi spezif ische Auspragungen eines Phonems in ver- 
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schiedenen Sprachen in unterschiedlicher Haufigkeit auftre- 
ten. 

Die Zusammenfassung der unterschiedlichen Wahrscheinlich- 
5 keitsdichten kann dabei mit einetn unterschiedlichen Abstands- 
schwellenwert fur die Wahrscheinlichkeitsdichten bei der 
Dichteh&ufung (density clustering) durchgefihrt werden. Bei- 
spielsweise reduziert sich mit einem Abstandsschwellenwert 
von funf die Zahl der verwendeten Dichten urn einen Faktor 3 

10 gegenuber dem Ausgangszustand, ohne daS damit eine entschei- 
dende Verschlechterung bei der Spracherkennungsrate einher- 
geht. In diesem Beispiel wurden 221, 48 und 72 von den ur- 
sprunglichen 341 Ausgangsdichten fur jeweils die Polyphonem- 
Region, die Zweisprachen-Region und die Einsprachen- Region 

15 zusammengef afit . In Figur 2 ist eine solche Polyphonemregion 
als Schnittmenge der Kreise fur die einzelnen Sprachen darge- 
stellt. Beim Mittellaut M des dargestellten HMM ist eine 
Wahrscheinlichkeitsdichte in einer solchen Region als WDP be- 
zeichnet. Die Erkennungsraten fur ein komplettes multilingua- 

20 les Spracherkennungs system sind dabei in Spalte 4 und 5 der 
Tabelle 2 als ML1 und ML2 angegeben: 



Language 


#Tokens 


LDPl%] 


ML1[%] 


ML2[%] 


English 


21191 


39.0 


37.3 


37.0 


German 


9430 


40.0 


34.7 


37.7 


Spanish 


9525 


53.9 


46.0 


51.6 


Total 


40146 


42.8 


38.8 


40.8 



Wahrend bei der ersten Untersuchung ML1 die konventionelle 
25 Polyphonem-Def inition aus [8] verwendet wurde, was bedeutet, 
daE der konplette akustische Bereich des Polyphonem-Modells 
bestehend aus der auSeren Kontur der Sprachbereiche in Figur 
2, fur die Erkennung verwendet wurde, benutzt die beschriebe- 
ne Methode lediglich einen Teilbereich daraus. Durch Verwen- 
30 dung der teilweisen Uberlappung der einzelnen Sprachbereiche 
fur die Modellierung des Polyphonem-Modells, ist beispiels- 



WO 98/11534 



PCI7DE97yO2016 



23 

weise eine Verbesserung von 2 % erzielbar, wie dies in Tabel- 
le 2 in der Spalte fur ML2 dargestellt ist. 

Durch die Kombination multilingualer Lautmodelle mit dem au- 
5 tomatischen On-Line- Adapt ionsverfahren, 15St sich die Erken- 
nungsgenauigkeit der Modelle verbessern. Durch eine unuber- 
wacht Adaption werden sie, an das neue Anwendungsvokabular , 
bzw. die neue Sprache angepafit. Hierzu mussen vorteilhaft 
keine zusatzlichen Daten fur die neue Sprache gesammelt wer- 

10 den. Falls universelle Lautmodelle eingesetzt werden, kann 
das Verfahren fur beliebige Sprachen verwendet werden. Bei- 
spielsweise kann mit multilingualen Lautmodellen aus Daten 
der Sprachen Deutsch, Amerikanisch und Spanisch durch On- 
Line-Adaption ein Einzelworterkennungssystem fur slowenische 

15 Ziffern optimiert werden. Hierzu wird dem Erkenner beim Er- 
kennungsvorgang lediglich slowenisches Datenmaterial zuge- 
f uhrt . 
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Patentanspruche 

1. Verfahren zur Echtzeit-Anpassung eines hidden -Markov- 

Lautmodelles im Codebuch eines Spracherkennungs systems an 
5 eine Wortschatzanderung im verwendeten phonetischen Lexi- 

kon, 

a) bei dem zu erkennende hidden-Markov-Lautmodelle mindestens 
uber einen ersten Mittelwertsvektor ihrer Wahrscheinlich- 
keitsverteilungen im Codebuch (CB) verfugbar gehalten wer- 

10 den, 

b) bei dem die Spracherkennung (ERKE) in ublicher Weise durch 
Extraktion von Merkmalsvektoren aus einem Sprachsignal 
(SPRA) und Zuordnung der Merkmalsvektoren zu Wahrschein- 
lichkeitsverteilungen von hidden-Markov-Lautmodellen aus 

15 dem Codebuch (CB) durchgefilhrt wird, 

c) und bei dem fur mindestens eine erkannte Lautaufierung (WO) 
der Wortschatzanderung unmittelbar nach deren Erkennung 
die Lage des ersten Schwerpunktsvektors mindestens eines 
zugeh6rigen hidden-Markov-Lautmodelles an die Lage des zu- 

20 geordneten Merkmalsvektors uber einen festgelegten Anpas- 

sungsfaktor mafistablich angepaSt (ADAP, CB, 100) und der 
angepaBte Mittelwertsvektor im Codebuch (CB) als erster 
Mittelwertsvektor abgelegt wird. 



25 2. Verfahren nach Anspruch 1, bei dem die Anpassung der Vek- 
torlage durch komponentenweise Mittelwertbildung und Mul- 
tiplikation mit einem konstanten Anpassungsfaktor durchge- 
fuhrt wird. 

30 3. Verfahren nach einem der vorangehenden Anspruche, bei dem 
die Zuordnung der Merkmalsvektoren zu den entsprechenden 
hidden-Markov-Lautmodellen mit Hilfe des Viterbi-Algorith- 
mus durchgefuhrt wird. 



35 4. Verfahren nach einem der vorangehenden Anspruche, 

a) bei dem fur die Spracherkennung eine Folge von Merkmals- 
vektoren der Form 
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X={Xi,X 2 ,....,x T } (i) 

aufgenotnmen wird, 

b) bei dem anzupassende und zu erkennende hidden- Markov- 
Lautmodelle mindestens je uber einen ersten Schwerpunks- 
vektor ihrer Laplace-Wahrscheinlichkeitsverteilungen der 
Form 

mit beim Training bestimmten Konstanten c[ m a ver- 

fugbar gehalten werden, 

c) und bei dem fur mindestens eine erkannte LautauSerung nach 
deren Erkennung die Lage des ersten Schwerpunktsvektors 
mindestens eines zugehdrigen hidden-Markov-Lautmodelles an 
die Lage des betref fenden Merkmalsvektors uber 

angepaSt wird mit ju^t+i als Komponente des neuen Schwer- 
punktsvektors und a als Anpassungsf aktor . 

5. Verfahren nach einem der vorangehenden Anspruche, bei dem 
eine nicht erkannte LautSuSerung zuruckgewiesen und keine 
Anpassung durchgefuhrt wird. 

6. Verfahren nach Anspruch 3 und 4, bei dem nach der n-Be- 
sten-Suche im Viterbi-Algorithmus eine erste Tref ferrate 
fur eine erste Lauthypothese und eine zweite Tref ferrate 
fur eine zweite Lauthypothese bestimmt wird und die Zu- 
ruckweisung mindestens in Abhangigkeit des Unterschiedes 
zwischen diesen beiden Trefferraten erfolgt. 
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7. Verfahren nach Anspruch 6, bei clem die Zuruckweisung er- 
folgt, falls der Betrag der Differenz zwischen den beiden 
Tref f erraten eine festgesetzte Schranke unterschreitet . 

8. Verfahren nach einem der Anspruche 1-7 zur Anpassung eines 
wie folgt gebildeten Mehrsprachen hidden-Markov- 
Lautmodelles : 

a) ausgehend von raindestens einem ersten Mekmalsvektor fur 
einen ersten Laut (L,M,R) in einer ersten Sprache 
(SP,EN,DE) und von mindestens einem zweiten Mekmalsvektor 
fur einen vergleichbar gesprochenen zweiten Laut in min- 
destens einer zweiten Sprache (DE,SP,EN) und deren zugeho- 
rigen ersten und zweiten hidden-Markov-Lautmodellen wird 
ermittelt, welches der beiden hidden - Markov- Lautmodelle 
(L,M,R) beide Merkmalsvektoren besser beschreibt; 

b) dieses hidden -Markov- Lautmodell (L, M, R) wird fur die Mo- 
dell ierung des Lautes in mindestens beiden Sprachen 

(SP, EN,DE) verwendet . 

9. Verfahren nach Anspruch 8, bei dem als MaS fur die Be- 
schreibung eines Merkmalsvektors durch ein hidden- Markov - 
Lautmodell (L, M, R) der logarithmische Wahrscheinlichkeits- 
abstand als log likelihood distance zwischen jedem hidden- 
Markov- Lautmodell und mindestens einem Merkmalsvektor ge- 
bildet wird, wobei eine kurzerer Ab stand eine bessere Be- 
schreibung bedeutet. 

10. Verfahren nach Anspruch 9, bei dem als Mafi fur die Be- 
schreibung der Merkmalsvektoren durch die hidden -Markov- 
Lautmodelle der arithmetische Mittelwert der logarithmi- 
schen WahrscheinlichkeitsabstSnde bzw. der log likelihood 
distances zwischen jedem hidden-Markov-Lautmodell (L, M, R) 
und jedem jeweiligen Merkmalsvektor gebildet wird, wobei 
eine kurzerer Abstand eine bessere Beschreibung bedeutet. 



WO 98/11534 



PCTVDE97/02016 



28 

11. Verfahren nach Anspruch 10, bei dem das erste hidden- 
Markov- Lautmodell (L,M,R) von einem Phonem K ± und das 
zweite hidden-Markov-Lautmodell von einera Phonem ver- 
wendet wird und bei dem als erste und zweite Merkmalsvek- 
toren X A und verwendet werden, wobei der logarithmische 
Wahrscheinlichkeitsabstand zum ersten Merkmalsvektor gem&£ 

d(^f^j) = logptel^Hogpfch) < 5 > 

bestimmt wird und der logarithmische Wahrscheinlichkeits- 
abstand zum zweiten Merkmalsvektor gem§£ 

= logpfol^J-logp^) (6) 

bestimmt wird, wobei zur Erzielung eines symmetrischen Ab- 
standsma&es der arithmetische Mittelwert zu 

berechnet wird. 



12. Verfahren nach Anspruch 11, 

bei dem dieses hidden-Markov-Lautmodell (L,M,R) fur die 
Modellierung des Lautes in mindestens beiden Sprachen nur 

verwendet wird, falls d^;^) eine festgelegte Schranken- 

bedingung erfullt. 

13. Verfahren nach einem der Anspruche 1-7 zur Anpassung ei- 
nes wie folgt gebildeten Mehrsprachen hidden-Markov- 
Lautmodelles : 

a) ausgehend von mindestens einem ersten hidden-Markov- 
Lautmodell (L,M,R) fur einen ersten Laut in einer ersten 
Sprache (SP,EN,DE) und von mindestens einem zweiten hid- 
den-Markov-Lautmodell (L,M,R) fur einen vergleichbar ge- 
sprochenen zweiten Laut in mindestens einer zweiten Spra- 
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che (DE,SP # EN), wird ein Poly-Phonem-Modell derart gebil- 
det, da£ die fiir die Modellierung des ersten und zweiten 
hidden -Markov- Lautmodelles (L,M,R) verwendeten Standard - 
wahrscheinlichkeitsverteilungen (WD) bis zu einem festge- 
5 legten Abstaijdsschwellenwert, der angibt bis zu welchem 

maximalen Abstand zwischen zwei Standardwahrscheinlich- 
keitsverteilungen (WD) diese zusammengefiigt werden sollen 
zu jeweils einer neuen Standardwahrscheinlichkeitsvertei- 
lung (WDP) zusammengefugt werden und lediglich die zusam- 
10 mengefugten Standardwahrscheinlichkeitsverteilungen das 

Poly Phonem Modell charakterisieren; 
b) dieses Poly Phonem Modell wird fur die Modellierung des 
Lautes in mindestens beiden Sprachen (DE # SP,EN) (L ( M,R) 
verwendet . 

15 14. Verfahren nach Anspruch 13, 

bei dem als Abstandsschwellenwert 5 festgelegt wird. 

15. Verfahren nach einem der vorangehenden Anspruche, 

bei dem hidden-Markov-Lautmodelle mit drei Zustanden ver- 
wendet werden, welche aus den Lautsegmenten Anlaut, Mit- 
20 tellaut und Ablaut gebildet werden. 

16 . Spracherkennungssystem, welches en Verfahren nach einem 
der vorangehenden Anspruche ausfilhrt 
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Relevant to dam No. 



HOFSTETTER E M ET AL: "TECHNIQUES FOR 
TASK INDEPENDENT WORD SPOTTING IN 
CONTINUOUS SPEECH MESSAGES*" 
SPEECH PROCESSING 2, AUDIO. NEURAL 
NETWORKS, UNDERWATER ACOUSTICS. SAN 
FRANCISCO. MAR. 23-26, 1992, 
vol. 2, 23 March 1992, INSTITUTE OF 
ELECTRICAL AND ELECTRONICS ENGINEERS, 
pages 101-104, XP000356947 
slehe Absatz "4. Speaker Adaptation / 
Unsupervised reestimation of a linear 
filtering" 
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A. KLASSIFIZIERUNG MS ANMELOUNQSCEGENSTANOES 

IPK 6 G10L5/06 



Nach der Inlemalionalen Patent klassrtifcation (IPK) oder nach dar nationaien Klassifikation und der IPK 



B. RECHERCH1ERTE GEBIETE 



Recherchierter Mindestprufstotf (Klassitikationasystem und Klassi likationssy mbo te ) 

IPK 6 G10L 



Rechercnierte aber rochl zum Mindestprufsloff gehoronde Verorfemiichungen, soweit dieseunter die rachercrnerten Gebtete fatten 



Wahrend der interna Ifonaten Recherche konsuitierte etektromsche OatenbanK (Name der Datenbank und evil, verwendete Suchbegrrfte) 



C. ALS WESENTUCH ANOESEHENE UNTERLAGEN 



Kategorte" Beze»chnung der Verbffenttichung, soweit erfordertich unter Angabe der in Betracht kommenden Telle 



Betr. Anspnjch Nr. 



BUB U: "Task adaptation for dialogues via 
telephone lines" 

PROCEEDINGS ICSLP 96. FOURTH INTERNATIONAL 
CONFERENCE ON SPOKEN LANGUAGE PROCESSING 
(CAT. N0.96TH8206), PROCEEDING OF FOURTH 
INTERNATIONAL CONFERENCE ON SPOKEN 
LANGUAGE PROCESSING. ICSLP '96, 
PHILADELPHIA, PA, USA, 3-6 OCT. 1996, ISBN 
0-7803-3555-4, 1996, NEW YORK, NY, USA, 
IEEE, USA, 

Selten 825-828 vol .2, XP002053006 
slehe Absatz 3.1 
slehe Absatz 3.2 
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Siehe An hang Patenttamdie 



' Besondere Kategohen von angegebenen Verdftertbcrtungen T 
A" Verottenttichung, die den aflgemeinen Stand der Technik definiert, 
aber nicht ate besonders bedeutsam anzusehen ist 

■E" aUeres Dokument. das jedoch erst am Oder nach dam irrtemationalen 

Anmaldedatum verdftentHcht worden ist ^ 
Verdrfenttichung. die geeignet ist. einen Prioritatsanspruch zwetteliaft er- 
scheinen zu lassen, oder durch die das VerdnentUcttungsdatum elner 
anderen im Rectterchenbencht gertamten Veroffentlicnung beiegt werden -y 
sofl oder die aus einem anderen basonderen Grund angegeoen ist (wie 
ausgefuhrt) 

"O" Verottenttichung, die slch auf eine rnundftcne Offenbarung, 

eine Benutzung, eine AussteJtung oder andere Maftnahmen bezieht 
"P" Verotrenfflchung, die vor dam intemattonaJen Anmaldedatum. aber nach 

dem bean sprue men Pnortatsdalum veroffentticht worden tst * 



Spatere Verofferrtttchung, die nach demtnternationaien Anmaldedatum 
oder dem Prioritatsdatum verofleotflcht worden ist und nvt der 
AnmeWung mcht kotkjiert, sondern nur zum Verstandnts des der 
Erfindung zugrundefiegenden Prinzips oder der ihr zugrurtdetiegenden 
Theorte angegeben ist 

Verortentltehung von besonderer Bedeutung: dto beanspruchte Erfindung 
kann allein aufgrund dieser Veroffenttchung ntcht ats neu oder auf 
erf inderischer TaUgkeit beruhend betracht et werden 
VeroffenUtcnung von besonderer Bedeutung; die beanspruchte Erfindung 
kann nicht als auf erflnderischer Tatigkeit beruhend betracfttat 
werden, warm die VeroffenUichung mttemer oder mehreren anderen 
VeroVfentttchungen dieser Kategone in Verbfndung gebracht wird und 
dieee Verbindung fur einen Fachmann nahetiegand ist 
Verdrfentlfchung, die MitgHed derselbenPatentfamilie ist 
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Belr. Ansprucfi Nr. 



BUB U ET AL: "In-service adaptation of 
multl Ungual hidden-Markov-model s" 
1997 IEEE INTERNATIONAL CONFERENCE ON 
ACOUSTICS, SPEECH. AND SIGNAL PROCESSING 
(CAT. N0.97CB36052), 1997 IEEE 
INTERNATIONAL CONFERENCE ON ACOUSTICS, 
SPEECH, AND SIGNAL PROCESSING, MUNICH, 
GERMANY, 21-24 APRIL 1997, ISBN 
0-8186-7919-0, 1997, LOS ALAMITOS, CA, 
USA, IEEE COMPUT. SOC. PRESS, USA, 
Seiten 1451-1454 vol.2, XP002053007 
siehe Absatz 2.1 
slehe Absatz 2.3 

NECIOGLU B F ET AL: "A BAYESIAN APPROACH 
TO SPEAKER ADAPTATION FOR THE STOCHASTIC 
SEGMENT MODEL" 

SPEECH PROCESSING 1, SAN FRANCISCO, MAR. 
23-26, 1992, 

Bd. I, 23.M3rz 1992, INSTITUTE OF 
ELECTRICAL AND ELECTRONICS ENGINEERS, 
Seiten 437-440, XP000341177 
siehe Gleichung 15 

PAUL D B ET AL: "THE LINCOLN 
LARGE-VOCABULARY STACK-DECODER HMM CSR" 
SPEECH PROCESSING, MINNEAPOLIS, APR. 27 - 
30, 1993, 

Bd. 2 OF 5, 27. April 1993, INSTITUTE OF 
ELECTRICAL AND ELECTRONICS ENGINEERS, 
Seiten 11-660-663, XP000427876 
siehe Seite 662 "Adaptation algorithm" 

ALTO P ET AL: "ADAPTING A LARGE 

VOCABULARY SPEECH RECOGNITION SYSTEM TO 

DIFFERENT TASKS" 

SIGNAL PROCESSING THEORIES AND 

APPLICATIONS, BARCELONA, SEPT. 18-21, 

1990, 

Bd. 2, 18. September 1990, TORRES L ; MASGRAU 

E; LAGUNAS M A, 

Seiten 1379-1382, XP000365815 

siehe Absatz 3 

siehe Absatz 5 

HSIAO-WUEN HON ET AL: "VOCABULARY 
LEARNING AND ENVIRONMENT NORMALIZATION IN 
VOCABULARY-INDEPENDENT SPEECH RECOGNITION" 
SPEECH PROCESSING 1, SAN FRANCISCO, MAR. 
23 - 26, 1992, 

Bd. 1, 23.Marz 1992, INSTITUTE OF 
ELECTRICAL AND ELECTRONICS ENGINEERS, 
Seiten 485-488, XP000341189 
siehe Absatz "Vocabulary-Bias Training" 
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HOFSTETTER E M ET AL: "TECHNIQUES FOR 
TASK INDEPENDENT WORD SPOTTING IN 
CONTINUOUS SPEECH MESSAGES*" 
SPEECH PROCESSING 2, AUDIO, NEURAL 
NETWORKS , UNDERWATER ACOUSTICS, SAN 
FRANCISCO, MAR. 23 - 26, 1992, 
Bd. 2, 23.Marz 1992, INSTITUTE OF 
ELECTRICAL AND ELECTRONICS ENGINEERS, 
Selten 101-104, XP000356947 
siehe Absatz "4. Speaker Adaptation / 
Unsupervised reestlmatlon of a linear 
filtering" 
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